Claude 3.5 Sonnet

https://scrapbox.io/files/66749f1b2859dc001c1d68ba.png

https://www.anthropic.com/news/claude-3-5-sonnet

ポイント

Claude3.5 Sonnetは、Claude3 Opusより優秀で、 2倍の速度と 5分の1のコストを実現

https://scrapbox.io/files/6674a0232486b9001cceb1d8.png

費用

入力トークン: 3ドル/100万token (Opusの1/5)

出力トークン: 15ドル/100万token (Opusの1/5)

Claude3 OpusとGPT-4のAPI費用の比較

つまり

入力に1000文字、出力に1000文字

2.7円

ユースケース

カスタマーサポートや複数ステップのワークフローなど、複雑なタスクに最適

2024年10月に機能改善

感じたこと

https://scrapbox.io/files/6674a489620240001c686f05.png

https://scrapbox.io/files/6674a753ba86ff001da19395.png

MathVista、つい先日まで、GPT-4oが最先端で人間を超えたとびっくりしてたのに、このスコアを上回るとは... (67.7 vs 63.8)

関連

Claude3.5 Sonnet テクニカルレポート

概要

本日、私たちは今後のClaude 3.5モデルファミリーの最初のリリースであるClaude 3.5 Sonnetを発表します。Claude 3.5 Sonnetは、幅広い評価において、競合モデルやClaude3 Opusを凌駕し、インテリジェンスの業界基準を引き上げています。その速度とコストは、ミッドティアモデルであるClaude 3 Sonnetと同等です。

Claude 3.5 Sonnetは、Claude.aiとClaude iOSアプリで現在無料で利用できます。一方、Claude ProとTeamプランのサブスクライバーは、大幅に高いレート制限で利用できます。また、Anthropic API、Amazon Bedrock、Google CloudのVertex AIからも利用できます。モデルのコストは、入力トークン100万個あたり3ドル、出力トークン100万個あたり15ドルで、コンテキストウィンドウは20万トークンです。

https://scrapbox.io/files/6674a0232486b9001cceb1d8.png

2倍の速度で最先端のインテリジェンス

Claude 3.5 Sonnetは、大学院レベルの推論（GPQA）、学部レベルの知識（MMLU）、コーディング能力（HumanEval）において、業界の新たな基準を確立しています。ニュアンス、ユーモア、複雑な指示の理解において著しい改善が見られ、自然で親しみやすい口調で高品質のコンテンツを作成することに優れています。

Claude 3.5 Sonnetは、Claude 3 Opusの2倍の速度で動作します。このパフォーマンスの向上とコスト効率の高い価格設定により、Claude 3.5 Sonnetは、コンテキストに依存するカスタマーサポートや複数ステップのワークフローのオーケストレーションなどの複雑なタスクに最適です。

社内のエージェントコーディング評価(Claude3.5 Sonnet テクニカルレポート)では、Claude 3.5 Sonnetは問題の64％を解決し、38％を解決したClaude 3 Opusを上回りました。私たちの評価では、モデルが、望ましい改善の自然言語による説明が与えられた場合、オープンソースのコードベースのバグを修正したり、機能を追加したりできるかをテストします。Claude 3.5 Sonnetは、指示され、関連するツールが提供されると、洗練された推論とトラブルシューティング機能を備え、独自にコードを書き、編集、実行することができます。コードの翻訳を容易に処理するため、レガシーアプリケーションの更新やコードベースの移行に特に効果的です。

最先端のビジョン

Claude 3.5 Sonnetは、標準的なビジョンベンチマークでClaude 3 Opusを上回り、これまでで最も強力なビジョンモデルです。これらの画期的な改善は、チャートやグラフの解釈など、視覚的な推論を必要とするタスクで最も顕著です。Claude 3.5 Sonnetは、不完全な画像からテキストを正確に書き起こすこともできます。これは、AIがテキストだけでは得られない洞察を画像、グラフィック、イラストから得られるため、小売、物流、金融サービスにおいて重要な機能です。

https://youtu.be/dhxrHvgXpSM

ClaudeのArtifacts機能 - クロードを使用する新しい方法

本日、私たちはClaude.aiにClaudeのArtifacts機能も導入します。これは、ユーザーがClaudeとやり取りする方法を拡張する新しい機能です。ユーザーがClaudeにコードスニペット、テキストドキュメント、ウェブサイトのデザインなどのコンテンツを生成するように要求すると、これらのアーティファクトは会話と共に専用のウィンドウに表示されます。これにより、ユーザーはClaudeの作成をリアルタイムで確認、編集、構築できるダイナミックなワークスペースが作成され、AI生成コンテンツをプロジェクトやワークフローにシームレスに統合できます。

このプレビュー機能は、Claudeが会話型AIから共同作業環境へと進化したことを示しています。

hiroya_iizuka.icon ただのChat UIから、AIとコラボして共同作業できるように...！

これは、Claude.aiのより広範なビジョンの始まりに過ぎません。Claude.aiは、まもなくチームコラボレーションをサポートするように拡張される予定です。近い将来、チーム、そして最終的には組織全体が、Claudeをオンデマンドのチームメイトとして、セキュアに知識、ドキュメント、進行中の作業を一元管理できるようになります。

安全性とプライバシーへのコミットメント

私たちのモデルは厳格なテストを受けており、悪用を軽減するようにトレーニングされています。Claude 3.5 Sonnetはインテリジェンスが飛躍的に向上していますが、レッドチームの評価の結果、Claude 3.5 SonnetはASL-2のままであることがわかりました。詳細については、モデルカードの付録をご覧ください。

安全性と透明性へのコミットメントの一環として、私たちは外部の専門家と協力して、この最新モデルの安全メカニズムをテストおよび改良してきました。最近、私たちはClaude 3.5 Sonnetを英国人工知能安全研究所（UK AISI）に提供し、配備前の安全評価を実施しました。UK AISIは3.5 Sonnetのテストを完了し、今年の初めに発表された米国と英国のAISIのパートナーシップを通じて実現した覚書の一環として、その結果を米国人工知能安全研究所（US AISI）と共有しました。

私たちは、外部の専門家からのポリシーフィードバックを統合することで、評価が堅牢なものになり、悪用の新しいトレンドを考慮できるようにしました。このエンゲージメントにより、私たちのチームは、さまざまなタイプの悪用に対して3.5 Sonnetを評価する能力を向上させることができました。たとえば、私たちは、Thornの児童安全専門家からのフィードバックを使用して、分類器を更新し、モデルを微調整しました。

私たちのAIモデル開発を導く中核的な憲法原則の1つは、プライバシーです。ユーザーが明示的に許可した場合を除き、ユーザーが提出したデータを生成モデルのトレーニングに使用することはありません。これまで、生成モデルのトレーニングに、顧客やユーザーが提出したデータを使用することはありませんでした。